1
เกินบอทแชท: สถาปัตยกรรมของผู้กระทำอัตโนมัติ
EvoClass-AI005บทเรียนที่ 5
00:00

ยินดีต้อนรับสู่การเปลี่ยนผ่านจากพฤติกรรมการใช้ประโยชน์จากปัญญาประดิษฐ์อย่างเฉื่อยชา สู่การควบคุมและจัดการปัญญาประดิษฐ์อย่างมีพลัง ในการเข้าใจ 'พนักงานดิจิทัล' เราจำเป็นต้องแยกแยะระหว่างบอทแชทมาตรฐานกับ ผู้กระทำอัตโนมัติ โดยที่การโต้ตอบแบบเดิมของโมเดลภาษาขนาดใหญ่ (LLM) เป็นเชิงตอบสนอง — พึ่งพาโครงสร้างง่าย ๆ ว่า ข้อมูลนำเข้า → ผลลัพธ์ แต่ผู้กระทำอัตโนมัติจะทำงานภายในวงจรซ้ำซ้อนที่กำหนดโดยสูตร:

$$ \text{เป้าหมาย} + \text{เหตุผล} + \text{เครื่องมือ} = \text{ผลลัพธ์} $$

1. โมเดลภาษาขนาดใหญ่ (LLM) ที่เป็นหน่วยประมวลผลหลัก

ในสถาปัตยกรรมนี้ โมเดลภาษาขนาดใหญ่ (LLM) ทำหน้าที่เป็น 'สมอง' หรือหน่วยประมวลผลกลาง มีความสามารถทางตรรกะและความสามารถด้านภาษา แต่เพื่อให้มันทำงานได้เหมือนพนักงาน ต้องอาศัยกรอบการทำงานที่รองรับการคงอยู่และการดำเนินการ

2. สามเสาหลักของสถาปัตยกรรมผู้กระทำ

เพื่อให้สมองนี้มีประสิทธิภาพ ต้องอาศัยสามเสาหลัก:

  • การวางแผน: การแบ่งเป้าหมายที่ซับซ้อนออกเป็นงานย่อย
  • ความจำ: การเก็บข้อมูลบริบทจากการโต้ตอบครั้งก่อน และข้อมูลระยะยาว
  • การกระทำ: การดำเนินงานในโลกดิจิทัลผ่านเครื่องมือ

เราไม่ได้แค่สั่งงานเท่านั้น แต่เรากำลังออกแบบระบบให้สามารถรับรู้สภาพแวดล้อมและปรับปรุงตนเองเมื่อพบข้อผิดพลาด

Agent Logic Structure
คำถามที่ 1
อะไรคือส่วนที่ทำหน้าที่เป็น 'สมอง' ของผู้กระทำอัตโนมัติในสถาปัตยกรรมนี้?
ฐานข้อมูล
โมเดลภาษาขนาดใหญ่ (LLM)
อินเทอร์เฟซผู้ใช้
คำถามที่ 2
เสาหลักใดที่รับผิดชอบในการแบ่งงานโครงการที่ซับซ้อนออกเป็นงานย่อยที่จัดการได้?
การกระทำ
ความจำ
การวางแผน
ความท้าทาย: การระบุพฤติกรรมการกระทำอัตโนมัติ
วิเคราะห์กระบวนการดำเนินงานของผู้กระทำอัตโนมัติ
คุณขอให้ปัญญาประดิษฐ์ "ค้นหาเที่ยวบินสามเที่ยวไปนิวยอร์ก คัดเลือกเที่ยวที่ราคาถูกที่สุด และเขียนอีเมลถึงหัวหน้าของฉัน"
ขั้นตอนที่ 1
ระบุขั้นตอน 'เหตุผล' ในกระบวนการนี้
คำตอบ:
การตัดสินใจเกิดขึ้นเมื่อผู้กระทำเปรียบเทียบราคาของเที่ยวบินสามเที่ยว และเลือกเที่ยวที่มีราคาถูกที่สุดตามเกณฑ์ของผู้ใช้